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摘要 : 【 目的 ] 针对 不 同 查询 专 指 度 语 句 的 检索 效果 进行 全 面 分 析 , 为 改善 搜索 引擎 性 能 、 提 高 用 户 检索 体验 提 
供 借鉴 【方法 ] 基于 TREC Web Track 查询 语句 ， 人 工 构建 查询 专 指 度 标注 集 ， 选 用 语言 模型 狄 利克 雷 平滑 、 语 
言 模 型 线性 插值 平滑 和 BM25 三 种 模型 ， 以 常用 的 信息 检索 评价 指标 为 基准 , 探讨 查询 专 指 度 强 弱 对 检索 效果 
在 不 同 层次 上 的 影响 。[ 结果 】 在 最 靠 前 的 几 条 检索 结果 中 , 强 弱 专 指 度 查 询 语 句 的 检索 效果 差异 最 大 ,， 强 专 指 
度 的 检索 效果 要 明显 好 于 弱 专 指 度 。[ 局 限 】 仪 在 TREC 数据 集 上 进行 实验 测试 , 还 需 在 其 他 数据 集 上 进一步 检 
验 。[ 结论 】 搜索 引擎 在 专 指 度 这 一 维度 下 ,应 重点 关注 最 靠 前 的 几 条 检索 结果 的 准确 性 ， 以 此 为 切 人 点 改善 检 


索 模 型 。 
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1 3 引 


互联 网 为 人 们 提供 了 内 容 丰 富 、 形 式 多 样 的 信息 
资源 , 信息 的 丰富 性 和 多 样 性 不 仅 给 人 们 带 来 了 便利 ， 
同时 也 导致 了 信息 过 载 趾 并 使 得 用 户 信 息 搜寻 的 难 
度 增 大 。Google 、 百 度 等 搜索 引擎 作为 用 户 与 网 络 资 
源 交 互 的 接口 , 会 根据 用 户 输入 的 查询 返回 结果 列表 ， 
用 户 输入 的 查询 过 于 宽泛 或 过 于 局 限 都 有 可 能 造成 检 
索 结 果 出 现 依 差 ， 只 能 通过 手动 筛选 检索 结果 或 二 次 
查询 进行 检索 结果 的 修正 和 获取 , 造成 用 户 时 间 和 精 
力 的 浪费 , 在 一 定 程度 上 造成 信息 的 遗失 。 因 此 针对 
不 同 查询 专 指 度 (Query Specificity) 的 用 户 查 询 语句 ， 
制定 不 同 的 检索 策略 ， 是 检索 模型 改进 的 方向 之 一 。 

查询 专 指 度 属于 查询 语句 的 语义 特征 外， 是 影响 
言 息 检索 效果 的 因素 之 一 中 ,查询 专 指 度 反 映 了 查询 


了 中 


目前 ， 学 界 对 于 “查询 专 指 度 强 弱 程度 对 检索 效 
果 的 影响 ”这 一 问题 只 关注 了 查询 专 指 度 对 整个 检索 
列表 的 影响 , 但 由 于 不 同 用 户 的 搜索 、 点 击 行为 具有 
个 体 差 异性 ， 以 整个 检索 列表 为 研究 对 象 不 利于 深入 
了 解 用 户 的 多 样 性 需求 。 本 文 根 据 查询 专 指 度 的 定义 ， 
梳理 归纳 了 查询 专 指 度 的 分 类 依据 , 对 Text Retrieval 
Conference (TREC) Web Track 2009 年 -2012 年 发 布 的 
所 有 查询 语句 进行 人 工分 类 , 并 以 常用 的 信息 检索 评 
价 指标 为 基准 , 全 方位 分 析 查 询 专 指 度 对 检索 效果 的 
影响 ,以 便 在 这 一 维度 对 检索 效果 进行 改善 。 


2 相关 研究 


查询 意图 是 介 于 用 户 查 询 语 句 与 用 户 真 实 信息 需 
求 之 间 的 一 种 中 间 形 式 , 用 于 表示 用 户 的 搜索 目的 六 
查询 意图 的 深层 次 分 析 有 利于 构造 用 户 的 信息 需求 空 


语句 表达 概念 的 宽泛 性 , 集中 体现 用 户 对 所 检索 信息 
的 详细 性 和 确定 性 要 求 外 ,在 一 定 程度 上 表明 用 户 查 
询 意 图 。 加 强 对 查询 语句 专 指 度 的 研究 可 以 帮助 搜索 
引擎 更 好 地 理解 用 户 的 潜在 需求 , 提供 更 符合 其 信息 
需求 的 检索 结果 列表 。 


间 ， 明 确 用 户 搜索 意图 以 及 据 此 提供 更 直接 、 更 相关 
和 更 丰富 的 信息 。2002 年 , Broderlq 从 用 户 搜索 目的 角 
度 出 发 将 查询 分 为 导航 类 、 信 息 类 和 事务 类 三 大 类 ， 
随后 有 学 者 在 此 基础 上 进一步 细 化 和 调整 [4 但 基本 
延续 其 框架 体系 。 但 由 于 这 一 分 类 体系 过 于 简单 ， 难 
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以 应 对 具有 复杂 信息 需求 的 查询 ,因此 Gonzilez- 
Caro 等 中 提出 从 题材 (Genre)、 主 题 (Topic)、 专 指 度 
(Specificity)、 任 务 (Task)、 目 标 (Objective)、 范围 (Scope) 
等 10 大 维度 揭示 用 户 复杂 的 信息 需求 和 丰富 的 信息 空 
间 , 本 文 即 以 专 指 度 为 立足 点 进行 用 户 查 询 意 图 分 析 。 

查询 专 指 度 是 搜索 引擎 查询 的 一 个 重要 方面 , 但 


os 
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的 关系 , 没有 在 不 同 指标 下 对 检索 结果 进行 不 同 层次 
的 研究 。 

针对 这 些 不 足 ， 本 文 在 借鉴 前 人 研究 基础 上 完善 
查询 专 指 度 分 类 体系 特征 , 并 在 TREC Web Track 数 
据 集 上 构建 查询 专 指 度 强 弱 程 度 标注 集 , 利用 BM25 
模型 和 语言 模型 等 检索 模型 ， 以 多 种 常用 的 信息 检索 


由 于 专 指 度 的 语义 特性 致使 其 很 难 测量 ,目前 针对 查 
询 专 指 度 的 研究 主要 可 以 分 为 三 个 方面 : 

(1) 查询 专 指 度 的 分 类 。 这 个 方面 主要 是 针对 专 
指 度 这 一 维度 进行 深入 人 研究， 了 解 其 内 涵 和 特征 ， 主 
要 分 为 两 种 方式 , 一 种 是 按 查 询 专 指 度 的 强 弱 程度 分 
类 ,比如 Hafernik"" 利用 9 个 语义 属性 将 查询 专 指 度 
分 为 强 弱 两 类 , 同时 发 现 查 询 长 度 和 词性 可 以 提高 专 
指 度 强 弱 识别 的 准确 性 ， 唐 祥 彬 等 外 对 查询 语句 的 特 
征 进行 分 析 , 并 利用 机 器 学 习 算 法 自动 识别 查询 语句 
的 专 指 度 强 弱 ; 另 一 种 是 利用 专 指 度 的 不 同 表示 方式 
将 其 分 为 检索 文档 数量 代表 的 专 指 度 、 词 形变 换 数量 
代表 的 专 指 度 和 专业 领域 词汇 数量 代表 的 专 指 度 三 
类 ,并 判断 这 三 类 之 间 的 相关 性 "1]。 

(2) 查询 专 指 度 和 其 他 属性 的 关系 。 这 个 方面 主 
要 是 将 专 指 度 放 入 检索 属性 网 络 中 , 研究 各 个 属性 之 
间 的 关系 , 增强 检索 网 络 的 一 致 性 和 完整 性 。Phan 等 中 
发 现 查 询 专 指 度 与 查询 语句 长 度 相 关 , 长 度 越 短 则 专 
旧 度 越 小 , 上 且 三 个 词 的 长 度 通常 为 强 弱 专 指 度 的 分 界 
线 ; Kimb 则 着 眼 于 查询 专 指 度 与 文档 相关 性 之 间 的 关 
系 ,回归 查询 本 质 。 

(3) 查询 专 指 度 对 检索 效果 的 影响 。 学 界 研究 查 
询 专 指 度 的 目的 是 为 增强 检索 效果 , Mu 等 中 将 查询 
专 指 度 和 查询 语句 长 度 作 为 查询 扩展 的 两 种 方式 , 人 研 
究 在 健康 信息 中 增 大 或 减少 专 指 度 和 语句 长 度 对 整体 
检索 效果 的 影响 ; Heine "研究 数据 库 中 信息 量 、 查 询 
语句 长 度 和 平均 查询 专 指 度 三 个 因素 对 MEDLINE 数 
据 库 中 信息 检索 效果 的 影响 , 且 发 现在 此 数据 库 中 专 
指 度 影响 并 不 突出 。 

以 上 研究 表明 ,， 有关 查 询 专 指 度 的 研究 还 存在 以 
下 不 足 : 

(D “查询 专 指 度 对 检索 效果 影响 ”的 研究 集中 在 
医学 信息 检索 任务 , 没有 对 互联 网 开放 环境 下 的 检索 
情境 进行 分 析 ; 


(2) 研究 仅仅 探讨 了 查询 专 指 度 与 整体 检索 效果 


评价 指标 为 基准 对 查询 语句 的 检索 效果 进行 全 面 分 析 ， 
同时 探讨 检索 模型 在 不 同 专 指 度 下 的 检索 效果 。 


3 查询 专 指 度 强 弱 程度 分 类 及 特征 选择 


3.1 查询 专 指 度 强 弱 程度 分 类 

不 同 专 指 度 强 弱 在 不 同 语 境 中 可 能 会 产生 不 同 的 
检索 效果 , 通过 对 数据 集中 的 查询 语句 进行 分 类 ,分 
别 比 较 不 同 强 弱 程度 下 的 检索 效果 是 本 研究 的 目的 。 
目前 , 学界 对 查询 专 指 度 强 弱 程 度 没 有 明确 的 分 类 标 
准 , 一 般 将 其 分 为 两 类 或 三 类 ,两 类 为 强 专 指 度 
(Narrow) 和 弱 专 指 度 (Broad)， 三 类 为 强 专 指 度 
(Specific) 、 略 专 指 度 (Medium) 和 弱 专 指 度 (Broad)。 通 
常 地 ， 由 于 英文 查询 语句 长 度 较 短 ， 词 性 短小 精 悍 ， 
因此 本 文 从 信息 需求 角度 出 发 "9 将 查询 专 指 度 分 
为 强 弱 两 类 。 

(1) 强 专 指 度 查 询 : 用 户 表达 出 明确 的 信息 需求 ， 
且 此 需求 产生 的 歧义 较 少 或 不 产生 歧义 ;清晰 地 表达 
了 用 户 的 目的 和 查询 需求 的 范围 , 或 涉及 到 某 些 专业 
领域 知识 。 比 如 用 户 想 知 道 某 一 问题 的 确切 答案 、 对 


某 一 观点 或 话题 进行 比较 、 想 知道 某 一 确切 日 期 发 生 
的 事情 等 ， 如 查询 “who invented music”、“mothers day 
Songs” 等 。 


(2) 弱 专 指 度 查询 : 用 户 表 达 的 信息 需求 不 明确 ， 
由 此 产生 较 大 下 义 ,或 用 户 表达 的 查询 目的 和 需求 范 
围 较 广 , 属于 一 般 领域 , 无 法 进行 准确 定位 。 这 类 查询 
往往 要 进行 二 次 检索 或 人 工 筛 选 ， 如 “cell phones”、 
“korean language” 和 “dieting” 等 。 
3.2 ”查询 专 指 度 强 弱 程度 特征 分 析 

查询 语句 特征 分 为 基本 特征 和 内 容 特 征 ， 基 本 特 
征 为 查询 语句 的 长 度 和 词 项 个 数 等 , 内容 特征 关注 查 
询 语句 的 含义 。 查 询 专 指 度 作 为 查询 语句 的 语义 特征 ， 
主要 针对 查询 专 指 度 的 内 容 特征 进行 分 析 。 专 指 度 通 
常 关注 在 用 户 查 询 中 使 用 了 哪些 限制 来 明确 用 户 需 
求 ， 如 数量 限制 .名 字 限 制 .时间 限制 .位 置 限制 等 , 基 
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于 此 , 并 结合 Hafernikt 和 庸 祥 彬 等 外 的 研究 ， 本 文 针 
对 专 指 度 强 弱 程度 分 类 选择 9 个 属性 特征 建立 属性 列 
表 ， 如 表 1 所 示 : 

表 1 查询 语句 属性 特征 及 查询 举例 


编号 查询 语句 属性 特征 查询 举例 


查询 语句 包括 URL 或 网 站 名 称 或 IP 
1 yahoo 


地 址 
查询 语句 包含 确切 地 方 名 称 及 其 他 


2 词 项 map of the united states 


3 查询 语句 比 较 不 同事 物 或 同一 事物 butter and margarine 
的 不 同方 盏 
4 ”查询 语句 比较 多 种 不 同 的 观点 或 话题 keyboard reviews 
5 ”查询 语句 为 包含 确切 答案 的 问题 
6 he 、 建 议 、 指 导 等 how to build a fence 
7 ”查询 语句 包含 确切 时 间 及 其 
8 查询 语句 包含 特定 数字 及 其 他 词 项 HP mini 2140 


9 ”查询 语句 包含 事物 名 称 及 其 他 词 项 Obama family tree 


who invented music 


一 、 


也 词 项 ”mothers day songs 


由 于 查询 语句 所 代表 的 用 户 查询 意图 对 于 理解 专 
首 度 有 重要 的 意义 ,因此 所 选择 的 属性 一 方面 表明 用 
户 的 查询 需求 ， 另 一 方面 是 基于 前 人 研究 选择 可 以 表 
征 强 专 指 度 的 属性 特征 , 例如 如 果 一 个 查询 语句 包含 
一 个 网 址 ， 则 表明 用 户 希 望 找到 某 一 特定 网 站 , 属于 
强 专 指 度 查询 ， 又 如 一 个 查询 语句 包含 对 于 某 种 事情 
的 指导 等 信息 需求 , 则 表明 用 户 希 望 寻找 达到 这 一 目 
标的 一 系列 具体 步 又 。 本 文 基于 表 1 中 的 查询 语句 的 


属性 特征 ,将 查询 专 指 度 分 为 强 弱 两 类 ， 当 包含 上 述 
一 个 或 多 个 属性 特征 时 即 为 强 专 指 度 查 询 , 不 包含 任 
一 属性 特征 时 即 为 弱 专 指 度 查 询 。 


4 研究 对 象 及 研究 思路 


4.1 研究 对 象 

本 文 数据 集 来 自 TREC Web Track 2009 年 -2012 
年 发 布 的 查询 语句 ,每 年 发 布 50 个 , 总共 200 个 查询 
语句 ， 由 于 这 些 查 询 语句 均 为 网 页 数据 ,主要 针对 互 
联网 开放 环境 下 的 检索 情景 ， 即 是 普通 大 众 最 常 接触 
的 信息 搜索 情景 ,因此 可 以 最 大 限度 地 保证 研究 结果 
的 实用 性 。 在 此 数据 集 上 , 利用 Indri5.7 建立 索引 ， 并 
利用 Indri 标准 停 用 词 表 进 行 停 用 词 过 滤 ， 同 时 利用 
Krovetz 进行 词 干 提取 .根据 表 1 中 建立 的 查询 语句 属 
性 特征 对 其 进行 专 指 度 强 弱 程 度 标注 ,标注 工作 由 两 
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名 武汉 大 学 信息 管理 学 院 图 情 专业 硕士 研究 生 完 成 ， 
为 检验 个 人 主观 因素 对 分 类 标注 的 干扰 程度 , 检验 其 
标注 Kappa 统计 量 03(Kappa Statistic)， 实验 表 明 
Kappa 值 为 0.91, 大 于 0.8, 说 明 实验 标注 结果 存在 很 
好 的 一 致 性 , 具有 研究 意义 。 对 于 当前 大 规模 语 料 集 
合 , 在 对 每 个 查询 语句 的 检索 结果 进行 相关 性 评价 时 ， 
列举 每 个 查询 的 所 有 相关 文档 是 不 现实 的 ， 因 此 通常 
利用 缓冲 池 法 上 Pooling)， 即 将 一 系列 检索 系统 中 每 
个 系统 所 返回 的 前 K 篇 文档 合成 一 个 文档 子 集 ， 并 对 
这 个 子 集 进 行 相 关 性 判定 , 本文 利用 TREC 的 评价 基 
准 针对 每 个 查询 语句 的 Top1000 文档 进行 测评 。 在 所 
有 200 个 查询 语句 中 ， 有 两 个 查询 语句 在 Track 提供 的 
相关 性 文档 集 和 基准 评价 中 是 不 存在 的 , 因此 最 终 只 
针对 198 个 查询 语句 进行 检索 结果 分 析 。 
4.2 ”研究 方法 

在 各 种 信息 检索 模型 中 , 应 用 最 广泛 的 为 语言 模 
型 U3(Language ModeD 和 Okapi BM25 模型 户 (Okapi 
BM25 Model),， 因此 本 文 运用 这 两 种 模型 对 查询 语句 
进行 检索 排序 ， 以 减少 单一 模型 可 能 出 现 的 检索 偏 
差 。 同 时 为 了 避免 词 项 在 文档 中 出 现 “ 零 概率 ”问题 ， 
在 语言 模型 中 使 用 两 种 平滑 方式 ， 分 别 为 狄 利克 雷 平 
滑 (Dirichlet) 和 线性 插值 平滑 (Jelinek-Mercer)。 在 检索 
模型 基础 之 上 , 利用 trec_eval 计算 不 同 模型 下 的 评价 
指标 ,进而 评价 其 检索 结果 的 差异 。 评 价 查 询 语 句 的 
检索 效果 通常 基于 传统 的 召回 率 (RecalD) 和 准确 率 
(Precision) 测 量 方法 , 但 这 两 种 方法 都 是 基于 集合 的 
评价 方法 , 在 面 对 搜 索引 擎 等 系统 输出 的 有 序 检索 结 
果 时 ， 针 对 性 较 差 , 因此 运用 平均 正确 率 均值 (Mean 
Average Precision，MAP) 、 归 一 化 折 损 累积 增益 
(Normalized Discounted Cumulative Gain, NDCG) 、R 正 
确 率 (R-Prec) 、Bpref (Binary preference-based measures)、 
Recip Rank、P@5、P@10 和 P@20 等 检索 领域 常用 
的 用 于 评价 有 序 检索 结果 的 指标 , 对 检索 结果 进行 更 
加 全 面 和 准确 的 评价 。 

(1) MAP: 反映 检索 系统 在 全 部 相关 文档 上 性 能 
的 单 值 指标 。 

(2) NDCG: 衡量 检索 结果 中 全 部 文档 排序 质量 的 
指标 。 

(3) R-Prec: 检索 结果 中 前 R 个 结果 集 的 正确 率 , R 
是 当前 检索 中 相关 文档 总 数 。 


(4) Bpref: 重点 关注 不 相关 文档 在 相关 文档 之 前 
出 现 的 次 数 。 

(5) Recip_Rank: 表示 检索 系统 返回 第 一 个 相关 
文档 的 能 

(6) P@K: 反映 检索 系统 对 于 查询 语句 返回 的 前 
K 个 检索 结果 的 准确 率 。 

从 上 述 各 个 检索 指标 的 含义 可 以 看 出 , 不 同 指标 
有 不 同 的 意义 MAP、NDCG 等 指标 是 从 整体 检索 效 
果 上 进行 评价 的 , 而 Recip_Rank、P@K 等 指标 是 对 结 
果 列 表 相 对 靠 前 的 检索 结果 进行 评价 , 通过 运用 不 同 
的 指标 , 可 以 反映 查询 专 指 度 对 检索 结果 在 不 同 层次 
上 的 影响 作用 。 
4.3 ”研究 框架 

通过 对 198 个 查询 语句 按照 专 指 度 强 弱 进行 人 工 
分 类 , 并 在 语言 模型 狄 利克 雷 平滑 、 语 言 模型 线性 插 
值 平 滑 和 BM25 三 个 模型 中 分 别 对 所 有 查询 语句 的 
Top1000 的 检索 结果 文档 进行 相关 性 评价 ,得 到 包括 
相关 文档 数量 及 MAP 、NDCG 、R-Prec 、Bpref 、 
Recip Rank、P@5、P@10 和 P@20 等 各 指标 值 ， 并 在 
此 基础 上 , 分 别 以 “同一 模型 "和 “同一 专 指 度 强 弱 ” 为 
基准 点 ,以 不 同 指标 为 评价 方式 , 对 检索 效果 在 专 指 
度 这 一 维度 下 进行 全 面 分 析 , 具体 来 说 ,“ 同 一 模型 下 
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专 指 度 强 弱 对 检索 效果 的 影响 ”重点 关注 不 同 专 指 度 
查询 语句 检索 效果 的 差异 性 ,“ 同 一 专 指 度 强 弱 下 不 同 
模型 的 比较 ”重点 关注 针对 同一 专 指 度 强 弱 ， 不 同 模 
型 间 的 性 能 差异 , 通过 这 两 方面 的 研究 ,可 以 立体 、 全 
面 地 描述 查询 专 指 度 对 检索 效果 的 影响 ,为 改善 搜索 
引擎 性 能 、 提 高 用 户 检索 体验 提供 思 


5 专 指 度 强 弱 对 检索 效果 的 影响 


运用 统计 学 指标 (均值 、 标 准 差 、 中 值 、 最 小 值 、 
最 大 值 ) 对 专 指 度 强 弱 对 检索 效果 的 影响 及 检索 模型 
的 比较 进行 描述 ,同时 运用 箱 形 图 对 其 进行 可 视 化 展 
示 , 利用 曼 - 惠 特 尼 秩 和 检验 (Mann-Whitney U Test) 对 
两 样本 进行 显著 性 差异 判断 ,， 知 曼 - 患 特 尼 秩 和 检验 
值 小 于 0.05, 则 拒绝 原 无 差异 假设 , 认为 两 者 有 统计 
学 差异 。 
5.1 同一 模型 下 对 强 弱 专 指 度 的 检索 比较 

分 别 在 语言 模型 狄 利克 雷 平滑 、 语 言 模型 线性 插 
值 平滑 和 BM25 三 种 模型 下 , 运用 MAP、NDCG、 
R-Prec、Bpref、Recip Rank、P@5、P@10 和 P@20 
等 指标 ， 对 不 同 专 指 度 的 查询 语句 检索 效果 进行 对 
比 。 表 2 为 在 三 种 检索 模型 下 针对 特定 指标 不 同 专 指 
度 查 询 语句 的 检索 结果 的 曼 - 惠 特 尼 秩 和 检验 值 。 


表 2 不 同 检索 模型 下 评价 指标 的 对 比 


模型 MAP NDCG R-Pref Bpref Recip_Rank P@5 P@10 P@20 
语言 模型 狄 利克 雷 平滑 0.715 0.594 0.763 0.497 0.095 0.036 0.108 0.454 
语言 模型 线性 插值 平滑 0.04 0.115 0.216 0.452 0.029 0.047 0.111 0.068 
BM25 模型 0.23 0.74 0.26 0.426 0.012 0.012 0.105 0.078 


从 表 2 中 可 以 看 出 , 在 语言 模型 狄 利克 雷 平滑 下 
P@5 指标 值 为 0.036, 小 于 0.05， 表 现 出 强 弱 专 指 度 检 
索 效 果 的 差异 ; 在 语言 模型 线性 插值 平滑 下 MAP、 
Recip_Rank 和 P@5 指标 值 分 别 为 0.04 .0.029 和 0.047， 
也 均 低 于 0.05, 具有 检索 效果 的 统计 学 差异 ; 而 在 
BM25 模型 下 , Recipe Rank 和 P@5 指标 也 表现 出 同样 
的 统计 学 差异 。 同 时 , 这 些 具有 统计 学 差异 的 指标 值 (6 
组 ) 占 到 全 部 统计 指标 值 (24 组 ) 的 25%, 且 在 每 一 种 模 
型 下 都 有 指标 显示 查询 专 指 度 的 不 同 强 弱 程 度 会 造成 
检索 结果 的 不 同 。 以 上 6 组 具有 统计 学 差异 的 箱 形 图 
如 图 1 所 示 。 


具体 来 说 , 在 三 种 模型 下 P@5 都 存在 统计 学 差 
异 ， 这 说 明 在 不 同 专 指 度 强 弱 查 询 语句 下 ,检索 列表 
中 前 5 条 检索 结果 的 准确 率 是 明显 不 同 的 ， 从 图 1(a)， 
(qd), (中 可 以 看 出 ,三 种 模型 强 专 指 度 查询 下 P@5 的 
最 大 值 、 平 均值 等 统计 学 指标 均 大 于 弱 专 指 度 ， 且 极 
少 出 现 离 群 点 , 说 明 在 P@5 指标 下 强 专 指 度 的 检索 效 
果 要 明显 好 于 弱 专 指 度 ， 这 是 由 于 弱 专 指 度 查询 语句 
查询 范围 较 广 ,一 般 不 对 查询 语句 进行 限制 ， 因 此 最 
先 出 现 的 结果 会 包含 事物 的 不 同方 面 ， 比 如 查询 
“apple"”， 既 有 可 能 出 现 苹 果 公司 的 网 站 信息 ， 也 有 可 
能 出 现 “ 苹 果 ” 这 种 水 果 的 相关 信息 ,造成 与 用 户 查 询 
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(c) 语言 模型 线性 插值 平滑 下 强 弱 专 指 度 查询 Recip_Rank 值 
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(e) BM25 模 型 下 强 弱 专 指 度 查询 Recip_Rank 值 
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(f) BM25 模 型 下 强 弱 专 指 度 查 询 P@5 值 


图 1 同一 模型 下 强 弱 专 指 度 的 检索 效果 具有 统计 学 差异 的 检索 指标 值 


意图 背离 的 结果 , 而 强 专 指 度 查 询 由 于 对 用 户 需 求 进 
行 了 一 定 的 限制 , 歧义 较 小 , 因此 在 检索 结果 的 前 5 
条 中 强 专 指 度 的 检索 效果 要 明显 好 于 弱 专 指 度 。 

除 此 之 外 出 现 较 多 差异 的 指标 是 Recip Rank, 在 
语言 模型 线性 插值 平滑 和 BM25 两 种 模型 下 强 弱 专 指 
度 查 询 的 曼 - 惠 特 尼 秩 和 检验 值 分 别 为 0.029 和 0.012， 
小 于 0.05, 具有 统计 学 差异 。Recip Rank 作为 表示 返 


常会 最 先 出 现 用 户 和 常用 的 结果 。 相 较 于 P@5 指标 下 的 
检索 结果 ，Recip_Rank 表现 出 强 弱 专 指 度 查 询 检 索 结 
果 的 更 大 的 不 稳定 性 。 

最 后 在 语言 模型 线性 插值 平滑 下 强 弱 专 指 度 的 
MAP 值 也 有 一 定 的 差异 性 ， 曼 - 惠 特 尼 秩 和 检验 值 为 
0.04, 接近 0.05, 由 于 MAP 主要 针对 所 有 相关 文档 的 
准确 率 进行 平均 求 值 , 因此 强 弱 专 指 度 检索 效果 的 差 


回 第 一 个 相关 结果 能 力 的 指标 ,从 一 定 程度 上 表征 了 
第 一 个 返回 结果 的 相关 性 强 弱 , 在 网 1(c), (e) 中 可 以 看 
出 , 在 此 指标 下 , 强 专 指 度 的 效果 要 明显 好 于 弱 专 指 
度 , 在 最 大 值 和 平均 值 方 面 都 有 较 大 的 优势 ， 原因 主 
要 为 强 专 指 度 的 查询 一 般 都 会 有 比较 明确 的 答案 , 或 
是 话题 或 想法 相对 集中 ,因此 在 进行 检索 的 过 程 中 通 


现代 图 书 情报 技术 


异性 也 逐渐 减弱 ， 从 图 1(b) 中 也 可 以 看 出 ,两 者 差异 
较 小 ， 只 有 在 离 群 点 方面 具有 明显 不 同 。 

通过 不 同 指标 可 以 看 出 , 在 涉及 到 较 少 的 检索 结 
果 时 , 强 专 指 度 查 询 语句 的 检索 效果 要 明显 好 于 弱 专 
指 度 ， 随 着 检索 结果 的 不 断 增 加 ， 这 种 差异 性 逐渐 减 
弱 , 但 总 体 而 言 即使 在 没有 显著 差异 的 指标 下 强 专 指 


度 检索 结果 的 平均 值 也 要 略 好 于 弱 专 指 度 。 而 从 检索 
模型 角度 看 ,语言 模型 狄 利克 雷 平滑 对 于 强 弱 专 指 度 
的 检索 效果 相对 其 他 两 种 较 好 , 除 在 P@5 指标 下 有 差 
异 外 , 其 他 结果 的 差异 性 均 不 大 , 表明 对 强 弱 两 种 专 
首 度 的 识别 和 检索 具有 一 定 的 适应 性 和 敏感 性 , 是 比 
较 综合 的 检索 模型 ， 而 其 他 两 种 模型 则 对 弱 专 指 度 的 
检索 效果 较 差 。 
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5.2 ”同一 专 指 度 下 不 同 模型 的 比较 

在 同一 专 指 度 下 对 三 种 模型 在 不 同 评价 指标 下 的 
统计 学 指标 (均值 、 标 准 差 、 中 值 、 最 小 值 、 最 大 值 ) 
进行 比较 , 采用 两 两 比较 的 方式 , 充分 展示 面 对 同 一 
强 弱 专 指 度 查 询 时 , 不 同 检索 模型 的 表现 情况 。 表 3 
至 表 5 是 三 种 模型 两 两 比较 时 不 同 评价 指标 下 曼 - 惠 
特 尼 秩 和 检验 值 。 


pn 


表 3 语言 模型 狄 利克 雷 平滑 与 语言 模型 线性 插值 平滑 比较 
比较 项 MAP NDCG R-Pref Bpref Recip Rank P@5 P@10 P@20 
强 专 指 度 查询 0.01 0.016 0.008 0.235 0.633 0.583 0.066 0.029 
弱 专 指 度 查询 0 0 0.002 0.177 0.176 0.736 0.087 0.003 
表 4 语言 模型 狄 利克 雷 平滑 与 BM25 模型 比较 
比较 项 MAP NDCG R-Pref Bpref Recip Rank P@5 P@10 P@20 
强 专 指 度 查 询 0.856 0.751 0.841 0.928 0.085 0.192 0.652 0.686 
弱 专 指 度 查 询 0.327 0.224 0.359 0.844 0.439 0.305 0.662 0.566 
表 5 语言 模型 线性 插值 平滑 与 BM25 模型 的 比较 
比较 项 MAP NDCG R-Pref Bpref Recip Rank P@5 P@10 P@20 
强 专 指 度 查 询 0.014 0.037 0.018 0.257 0.032 0.065 0.025 0.006 
弱 专 指 度 查询 0.002 0.002 0.018 0.254 0.042 0.156 0.026 0.011 


从 表 3 可 以 看 出 , 在 语言 模型 狄 利克 雷 平滑 与 语 
言 模型 线性 插值 平滑 的 对 比 中 , 强 弱 专 指 度 下 MAP、 
NDCG、R-Pref 和 P@20 的 曼 - 惠 特 尼 秩 和 检验 值 均 小 
于 0.05, 具有 统计 学 差异 ; 而 在 语言 模型 狄 利 克 雷 平 
滑 与 BM25 模 型 比较 时 ， 所 有 指标 的 曼 - 惠 特 尼 秩 和 检 
验 值 均 大 于 0.05, 不 具有 统计 学 差异 , 说 明 这 两 种 模 
型 在 同一 专 指 度 查 询 下 性 能 基本 一 致 ; 而 在 语言 模型 


DIR DJM DBM25 
(a) 强 专 指 度 查 询 下 三 种 模型 MAP 值 比较 


线性 插值 平滑 与 BM25 的 比较 中 , 出现 统计 学 差异 的 
指标 增多 , 分 别 为 MAP、NDCG、 R-Pref、 Recip Rank、 
P@10 和 P@20, 在 强 弱 专 指 度 查 询 语句 下 都 小 于 
0.05。 总 体 来 看 , 在 两 两 模型 比较 下 , 强 弱 专 指 度 查询 
结果 具有 的 一 定 的 同步 性 ， 即 当 强 专 指 度 下 模型 具有 
一 定 的 统计 学 差异 时 , 弱 专 指 度 也 具有 统计 学 差异 。 
具有 统计 学 差异 的 模型 比较 箱 形 图 如 图 2 所 示 : 
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图 2 同一 专 指 度 下 三 种 模型 不 同 指标 值 的 比较 
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从 图 2 和 表 4 可 以 看 出 , 语言 模型 狄 利克 雷 平滑 
与 BM25 模型 在 不 同 指标 下 的 最 大 值 、 最 小 值 和 平均 
值 等 大 体 相 同 ， 曼 - 惠 特 尼 秩 和 检验 在 各 个 指标 下 也 
均 大 于 0.05, 说 明 这 两 个 模型 在 针对 同一 强 弱 专 指 度 
查询 语句 时 , 检索 效果 基本 一 致 , 不 具有 差异 性 ; 同 
时 , 语言 模型 狄 利克 雷 平滑 和 BM25 模型 在 箱 形 图 的 
四 分 位 数 和 中 位 数 等 数值 上 均 比 语言 模型 线性 插值 平 
滑 高 , 因此 三 种 模型 对 于 同一 强 弱 专 指 度 的 查询 语句 
进行 检索 时 ， 检 索 效 果 由 好 到 差 依次 为 : 语言 模型 狄 
利克 雷 平滑 =BM25> 语 言 模型 线性 插值 平滑 。 因 此 在 
针对 专 指 度 这 一 维度 进行 检索 时 , 运用 语言 模型 狄 利 
克 雷 平滑 和 BM25 两 种 模型 会 得 到 更 符合 用 户 需 求 的 
检索 结果 。 


从 上 面 的 分 析 中 可 以 看 出 , 在 不 同 检索 评价 指标 
下 ,由 于 强 弱 专 指 度 查 询 在 语句 明确 性 方面 的 差异 ， 
在 判断 最 靠 前 的 几 条 检索 结果 时 ,两 者 的 检索 效果 差 
距 较 大 , 强 专 指 度 查 询 语 句 的 检索 效果 要 明显 好 于 弱 
专 指 度 ， 而 当 对 所 有 检索 结果 的 相关 性 进行 平均 判断 
时 ,检索 效果 差异 性 减 小 , 也 就 是 说 ， 当 返回 越 多 的 
检索 文档 时 ， 强 弱 专 指 度 查 询 语句 检索 效果 的 差异 性 
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TREC 查询 语句 ,在 每 个 查询 返回 的 1 000 篇 文档 中 ， 
相关 文档 数量 较 少 , 最 大 为 167 篇 , 平均 为 37 篇 , 数 
量 上 处 于 中 等 偏 下 的 程度 ， 因 此 在 此 指标 下 差别 不 明 
显 , 显示 不 出 统计 学 差异 , 但 并 不 代表 模型 在 此 方面 
没有 缺陷 , 未 来 可 进一步 研究 。 

(2) 对 于 P@5 指标 来 说 , 它 在 同一 模型 下 对 强 弱 
专 指 度 检 索 结 果 进 行 评 价 时 具有 统计 学 差异 ， 而 在 针 
对 同一 专 指 度 强 弱 比较 不 同 模型 时 却 没有 统计 学 差 
异 , 说 明 在 检索 结果 的 前 5 条 (也 就 是 最 重要 的 5 条 中 ) 
各 个 模型 都 对 强 专 指 度 有 着 更 好 的 检索 结果 ， 而 对 于 
弱 专 指 度 的 检索 就 比较 差强人意 ,需要 进一步 改进 。 


7 结 语 


根据 不 同 查询 专 指 度 , 返回 与 其 信息 需求 限制 范 
围 相符 的 个 性 化 查询 结果 ,成 为 改善 搜索 引擎 性 能 、 
提高 用 户 检索 体验 的 重要 途径 。 本 文 基于 TREC Web 
Track 查询 语句 ， 人 工 构 建 查询 专 指 度 标 注 集 ， 选 用 语 
言 模型 狄 利克 雷 平滑 、 语 言 模 型 线性 插值 平滑 和 
BM25 三 种 模型 ， 以 常用 的 信息 检索 评价 指标 为 基准 ， 
对 检索 效果 在 专 指 度 这 一 维度 下 进行 了 全 面 分 析 , 实 
验 结果 表明 : 在 最 靠 前 的 几 条 检索 结果 中 , 强 弱 专 指 
度 查 询 语句 的 检索 效果 差异 最 大 , 强 专 指 度 的 检索 效 


就 会 减弱 ,使 两 者 呈现 基本 一 致 状态 。 同 时 用 户 在 进 
行 检索 时 , 通常 只 会 查看 前 10 条 或 前 20 条 检索 结果 ， 
因此 , 在 专 指 度 这 一 维度 下 ,检索 模型 应 重点 关注 如 
何 提高 最 靠 前 的 儿 条 检索 结果 的 准确 率 ,以 实现 模型 
优化 。 男 一 方面 , 在 针对 同一 查询 专 指 度 进行 检索 时 ， 
语言 模型 狄 利克 雷 平滑 与 BM25 模型 的 检索 效果 要 明 
显 好 于 语言 模型 线性 插值 平滑 。 因 此 , 搜索 引擎 可 以 
根据 查询 专 指 度 强 弱 程 度 特征 ,利用 机 需 学 习 算 法 对 
专 指 度 进 行 自动 识别 ,同时 搜索 引擎 可 以 充分 利用 语 
言 模型 狄 利克 雷 平滑 或 BM25 模型 的 检索 优势 , 返回 
与 用 户 信息 需求 限制 范围 相符 的 个 性 化 查询 结果 ， 以 
此 改善 搜索 引擎 性 能 , 提高 用 户 体验 。 

除 此 之 外 , 通过 实验 发 现 : 

(1) 在 所 有 的 检索 指标 中 ，Bpref 是 唯一 一 个 在 同 
一 模型 的 强 弱 专 指 度 比 较 和 同一 强 弱 专 指 度 下 不 同 模 
型 比较 两 个 方式 中 均 不 存在 统计 学 差异 的 指标 ， 且 数 
值 均 较 大 ,分 析 认 为 这 是 由 于 Bpref 指标 重点 关注 不 
相关 文档 在 相关 文档 之 前 出 现 的 次 数 ， 而 对 于 198 个 


果 要 明显 好 于 弱 专 指 度 。 同 时 本 文 研 究 也 有 一 定 的 局 
限 性 , 仅 在 TREC 数据 集 上 进行 实验 测试 , 还 需 在 其 
他 数据 集 上 进一步 检验 。 
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The Impacts of Query Specificity on Information Retrieval 
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Abstract: [Objective] This paper analyzes the impacts of query specificity on the effectiveness of information retrieval 
systems, aiming to improve the performance of search engine and user experience. [Methods] First, we manually 
constructed a labeling set for queries from the TREC Web Track. Second, we adopted the Dirichlet language model, 
linear interpolation language model and BM25 model to examine each query’s performance. Finally, we used the 
average information retrieval evaluation index as the benchmark to explore the impacts of query specificity. [Results] 
For the highest-ranked results, the queries with narrower specificity had better retrieval performance than their boarder 
counterparts. [Limitations] The proposed method was only examined with data provided by TREC. More studies were 
needed to evaluate its performance with other data sets. [Conclusions] Search engines should focus on the precision of 
the highest ranked results, and then modify their retrieval model accordingly. 

Keywords: Query intention Query specificity Retrieval result 


ProQuest 发 布 2016 年 图 书馆 空间 再 利用 调查 的 结果 


最 新 发 布 的 ProQuest 对 600 多 家 图 书馆 的 调查 发 现 , 82% 的 学 术 图 书馆 认为 空间 再 利用 已 经 是 或 者 即将 是 图 书馆 中 最 重 
要 的 事情 之 一 。 超 过 三 分 之 一 的 学 术 图 书馆 对 图 书馆 空间 再 利用 的 考虑 已 长 达 5 年 之 久 。 

调查 显示 了 图 书馆 空间 再 利用 的 各 种 创新 方式 , 25% 的 学 术 图 书馆 表示 他 们 正在 设立 制造 者 空间 和 黑客 空间 。 调 查 白 皮 
书 “ 用 户 需 求 不 断 进 化 下 的 学 术 图 书馆 空间 进化 ”可 在 http://bit.ly/libspacereclaim 通过 注册 免费 获取 。 

ProQuest 北美 区 销售 副 总 裁 Kevin Stehr 说 :“ 尽 管 空间 再 利用 计划 如 此 受 欢迎 ,许多 图 书馆 在 进行 空间 再 利用 时 仍然 需 
要 努力 解决 一 些 常 见 的 问题 。 比 如 说 , 只 有 6% 的 图 书馆 为 电子 书 分 配 了 新 的 预算 。” 

“即使 是 那些 重新 分 配 印刷 本 预算 的 图 书馆 ” Stehr 补充 说 ,“ 也 必须 在 科研 人 员 对 合作 空间 的 渴望 和 他 们 对 印刷 本 资料 的 
喜爱 之 间 进 行 平衡 ”正如 一 位 受 调 查 的 图 书馆 员 所 说 ,“ 做 好 这 一 平衡 需要 深入 了 解 所 有 格式 资源 的 使 用 情况 ， 以 便 做 出 最 
好 的 馆藏 分 配 决定 。” 

利用 各 种 ProQuest 解决 方案 和 服务 能 帮助 图 书馆 实现 这 种 平衡 并 重新 利用 空间 。 比 如 , 该 公司 的 标题 快速 匹配 (Title 
Matching Fast) 服 务 能 帮助 图 书馆 评估 他 们 的 印刷 图 书 、 数 字 图 书 和 期 刊 杂 志 ， 以 做 出 数据 驱动 的 馆藏 建设 方案 ; 该 公司 的 数 
字 存 档 和 访问 计划 (Digital Archive and Access Program) 能 帮助 图 书馆 将 印刷 图 书馆 藏 转换 为 在 线 数字 馆藏 ， 节省 大 量 的 空间 ， 
同时 又 保持 了 其 馆藏 覆盖 范围 。 

(编译 自 : http://www.proquest.com/about/news/2016/ProQuest-Releases-Results-of-Its-2016-Space-Reclamation-Survey.html) 
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